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Автоматический синтез нейтральной 
и выразительной речи 


В интеллектуальных приложениях, использующих речевые технологии, синтезированная речь должна 
звучать естественно и выразительно. В статье описана разработанная технология синтеза речи, 
обеспечивающая озвучивание произвольных орфографических текстов на украинском языке в нейтральном 
и выразительном стилях с сохранением индивидуальных особенностей голоса и произношения. Основное 
внимание уделено просодической модели интонирования, используемой для синтеза речи с нейтральной и 
выразительной интонацией. 


Введение 


Технология автоматического синтеза речи по тексту (ТТ$, Тех{-ю-ЗреесВ) позво- 
ляет передавать голосовую информацию от компьютера к человеку, преобразовывая 
произвольный орфографический текст в звучащую речь. 

К современным системам синтеза речи (ТТ$-системам) предъявляются требования 
разборчивости и естественности (натуральности) звучания. Разборчивость подразуме- 
вает правильное распознавание человеком всех слов синтезированной речи. Большинство 
современных ТТ$-систем демонстрируют хорошую разборчивость, приближающуюся 
к разборчивости естественной речи. В то же время практика показывает, что разборчи- 
вая, но неестественно звучащая речь не удовлетворяет требованиям пользователей. 
Естественность синтезированной речи оценивается по тому, насколько она похожа на 
речь живого человека, насколько она выразительна и насколько в ней отражены инди- 
видуальные особенности голоса и произношения. 

Индивидуальность естественной речи проявляется как в физиологических осо- 
бенностях голоса, так и в приобретенных привычках произношения. 

Под выразительностью речи понимается выражение отношения читающего текст 
к содержанию этого текста и к аудитории. Как правило, стиль и смысл текста диктуют 
выбор стиля речи. В выразительной речи подчеркнуты отдельные слова, выделены 
паузами определенные участки текста и т.д. Между нейтральной и выразительной 
речью нет четких границ, речь может идти о различной степени выразительности. 

Эмоциональность речи связана с состоянием говорящего. Характеризуя в основ- 
ном спонтанную речь, при чтении вслух эмоциональность, как правило, имитируется, 
добавляя выразительности. 

В большинстве приложений, не требующих интерактивного взаимодействия че- 
ловека с компьютером, уместна нейтрально звучащая синтезированная речь (озвучи- 
вание новостной, навигационной, деловой информации). Более выразительная речь 
необходима для озвучивания художественной литературы и в ситуациях живого обще- 
ния человека с компьютером: в интерактивных образовательных программах, играх, 
в разговоре с роботами-собеседниками. В этих и иных интерактивных приложениях, 
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таких как автоматизация работы саЙ-центров, внимание в основном уделяется проб- 
леме распознавания речи и эмоций. Однако адекватный синтез речи дружелюбным, 
уместно жизнерадостным или сочувственным голосом также играет большую роль. 
Выразительная речь компьютера стимулирует пользователя поддерживать с ним взаимо- 
действие. 

Крупные фирмы, работающие в области синтеза речи, активно разрабатывают 
и рекламируют «живые», «выразительные», «приятно звучащие» голоса. Фирма Аса- 
реа разработала пользующийся успехом многоязычный сервис «говорящие открытки», 
а также несколько голосовых приложений для 1Рвопе, позволяющих читать новости, 
переводить тексты, изучать иностранный язык. Фирма Миапсе предлагает фирмам-за- 
казчикам создавать корпоративные, узнаваемые, ассоциируемые с фирмой-заказчицей 
естественно звучащие голоса. Ггодиепдо также предлагает выразительные, наделенные 
чертами конкретных людей голоса. На рынок ТТ$-систем выходит также российский 
разработчик Центр речевых технологий (ЦРТ). 


Синтез нейтральной и выразительной речи 
методом Цпи Зеесйоп 


Различие между нейтральным и выразительным стилями чтения проявляется в 
основном на уровне просодики — интонации, ритмики, паузации, темпа произнесения 
текста и его отдельных частей, а также степени ударения отдельных слов и слогов. В ре- 
чевом сигнале просодическим характеристикам соответствуют акустические характе- 
ристики: частота основного тона (пдатета! Недиепсу, Е0), длительность и интен- 
сивность (амплитуда). 

Исследования, посвященные синтезу выразительной речи, можно разделить на 
несколько направлений: синтез речи в определенном стиле [1], синтез эмоциональной 
речи [2], синтез эмфатической речи (с логическим выделением отдельных слов) [3], 
синтез характерной речи (с признаками индивидуальных особенностей характера) [4]. 
Объединяет эти исследования то, что в обязательном порядке моделируются интона- 
ция (контур Е0), а также длительность звуков и пауз. Тестирование синтезированной 
речи [5] показало, что спектральные характеристики, в отличие от просодических, ме- 
нее важны. 

В настоящее время наиболее распространенным методом синтеза речи является 
метод Опй З@есйоп [6], основанный на генерации речевого сигнала путем конкатена- 
ции естественных речевых отрезков, выбираемых из речевой базы данных. В речевой 
базе данных, содержащей отрезки речи конкретного диктора и имеющей большой 
объем (5 — 15 часов акустических записей), отражаются как особенности голоса этого 
диктора, так и используемый им стиль чтения. Как правило, используются речевые от- 
резки, соответствующие отдельным звукам или дифонам (участкам речи от середины 
одного звука до середины следующего). Большое количество элементов (ипй5$) базы 
данных, различающихся спектральными и просодическими характеристиками, позво- 
ляет синтезировать речь с высокой степенью естественности. Чем больше объем рече- 
вой базы данных, тем с большей вероятностью в ней будут найдены необходимые 
для синтеза речевые отрезки и меньше придется модифицировать синтезированный 
сигнал, добиваясь необходимых значений длительности, Е0 и плавных переходов от 
одного звука к другому. Известно, что любая модификация речевого сигнала отрица- 
тельно сказывается на качестве его звучания. Речь, синтезируемая методом Чпи З@ес- 
поп, сохраняет индивидуальные особенности голоса и произношения диктора. 
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Важной составляющей метода Чпи З@есйоп является алгоритм выбора элемен- 
тов из базы данных. Проблема состоит в том, что приходится решать, какие критерии 
выбора важнее: контекст, интонация, длительность и т.д. Поскольку сбалансирован- 
ность критериев не достигнута, а выбор осуществляется автоматически, процесс синтеза 
речи иногда «выходит из-под контроля» [7], и синтезированная речь воспринимается 
как «неуравновешенная». 

Теоретически существует три способа, не отказываясь от метода Ципи З@есНоп, 
обеспечивающего естественное звучание, синтезировать речь в различных стилях: 

1) создать параллельно несколько речевых баз данных на материале одного го- 
лоса, но разных стилей; 

2) аннотировать единую базу данных метками, соответствующими стилям, и учи- 
тывать эту информацию в процессе синтеза при выборе речевых элементов из единой 
базы данных; 

3) разработать просодические модели, настраиваемые на голос и стиль, исполь- 
зовать их для порождения индивидуальных и стилевых значений просодических ха- 
рактеристик, учитываемых при выборе речевых элементов в процессе синтеза речи. 

Более перспективными представляются второй и третий, наименее трудоемкий, 
подходы. 


Цель исследования 


Целью данной работы является разработка технологии синтеза речи, обеспечи- 
вающей озвучивание произвольных орфографических текстов на украинском языке в 
нейтральном и выразительном стилях с сохранением индивидуальных особенностей 
голоса и произношения. Основное внимание уделено разработке просодической моде- 
ли интонирования, позволяющей синтезировать речь с нейтральной и выразительной 
интонацией. 


Синтез украинской нейтральной 
и выразительной речи по тексту 


В системе синтеза украинской речи [8] используется разработанный в МНУЦИТиС 
фонемно-трифонный метод синтеза речи в амплитудно-временной области, являющий- 
ся вариантом метода Опи Зеесноп. Объединение метода синтеза с разработанными 
индивидуализированными просодическими моделями позволяет озвучивать тексты в 
соответствии с выбранными голосами и стилями чтения. 

Разработанная система синтеза индивидуализированной украинской речи (рис. 1) 
состоит из следующих компонентов: 

— речевых баз данных; 

— лингвистического процессора; 

— модуля выбора элементов из речевой базы данных; 
— акустического процессора. 

Речевые базы данных используются не только в процессе синтеза речи. Содер- 
жащаяся в их аннотациях информация служит для предварительной настройки моде- 
лей произношения диктора. В процессе синтеза речи настроенный лингвистический 
процессор генерирует фонемно-просодическую транскрипцию входного текста в ви- 
де последовательности фонем с вычисленными просодическими характеристиками 
длительности и интонационного контура. 
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Рисунок 1 — Блок-схема системы синтеза украинской речи по тексту 


Модуль выбора элементов из базы данных сравнивает фонемно-просодическую 
транскрипцию входного текста (то есть информацию о том, что и как должно синте- 
зироваться) с аннотацией базы данных (то есть с информацией о том, какой речевой 
материал имеется в наличии). Модуль выбора оценивает и выбирает элементы речевой 
базы данных в соответствии с характеристиками, определенными при анализе текста. 

Выбранные элементы конкатенируются акустическим процессором и озвучива- 
ются акустической системой. 


Речевые базы данных 


Качество синтезированной речи зависит от объема и покрытия речевой базы дан- 
ных (РБД), то есть от того, насколько полно в ней представлены звуковые, темпораль- 
ные и интонационные варианты речевых единиц. 

Элементами РБД являются аллофоны (фонемы-трифоны), то есть фонемы в сег- 
ментном контексте, указывающем, какие фонемы находятся в речевом сигнале слева 
и справа от данной фонемы. Каждый элемент аннотирован идентификатором, именем, 
состоящим из трех частей (имя предыдущей, текущей и последующей фонемы), дли- 
тельностью, значениями интенсивности, для гласных и звонких согласных также по- 
следовательностью длин периодов основного тона и количеством периодов. 

На данный момент разработаны 7 РБД: 4 мужских голоса, 2 женских и 1 дет- 
ский (табл. 1). Наименее естественно звучит речь, синтезируемая на основе РБД, сос- 
тоящей из прочитанного диктором словаря объемом около 300 слов. Разборчивость 
такой речи, тем не менее, довольно высокая благодаря тому, что в словаре представлены 
все фонемы украинского языка в наиболее часто встречающихся контекстах. Наибо- 
лее естественно звучит речь, синтезируемая с использованием РБД, разработанной на 
основе текстов различных типов. РЬД диктора НАТАЛКИ содержит речь различных 
стилей чтения, что позволяет синтезировать речь в дипазоне от наиболее нейтральной 
(прогноз погоды) до наиболее выразительной (диалоги). 
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Таблица 1 — Речевые базы данных, используемые в системе синтеза украинской 
речи 


Объем речевой 
Продолжительность 
.. базы данных 
Диктор Тип текста акустической записи 
(количество 
(минуты) 
аллофонов) 


СВЯТОСЛАВ | Изолированные фразы 26 мин. 16 с. 11843 
ДМИТРИЙ 8433 


Марине | ЗОЛИроваННыоСловаи 10 мин. 44 с. 3017 
фразы 


ОСТАП 1424 


ДАРИНКА Изолированные слова и 
фразы 


ПАНАС 79 мин. 305. ТРЕ 


Художественный текст, 
тексты ЗМ$-сообщений, 
диалоги, радионовости, 
НАТАЛКА изолированные фразы, 234 мин. 22 с. 70478 
названия букв алфави- 
та, даты, телефонные 
номера ит.п. 


Лингвистический анализ 


5 мин. 28 с. 


В процессе лингвистического анализа входного текста задействованы дикторо- 
независимые алгоритмы обработки текста и дикторозависимые модели произношения. 
Для настраивания моделей используются аннотации индивидуальных РБД. Учитыва- 
ется, как диктор произносит те или иные звукосочетания (ассимиляция, редукция), 
где ставит ударения (например, «зокрЕма» или «зокремА»), как часто делает паузы 
внутри фраз. Наиболее важной, особенно для синтеза выразительной речи, является 
индивидуализация моделей длительности и интонации. 


Модель длительности фонем 


Вычисление длительности фонем осуществляется с помощью модели, параметрами 
которой являются: средняя длительность фонемы (по аннотации РБД), тип контекста, 
в котором она находится в синтезируемом высказывании, и набора коэффициентов 
длительности для данной фонемы, соответствующих типу контекста. В процессе син- 
теза речи тип контекста устанавливается с учетом коммуникативного типа синтагмы, 
наличия в синтагме логического ударения, позиции фонемы по отношению к началу/ 
концу синтагмы, типа слога (открытый, закрытый) и сегментного типа непосредствен- 
ного левого и правого окружения (ударная/безударная гласная, согласная фонемы). Для 
вычисления длительности фонемы ее средняя длительность умножается на коэффици- 
ент, соответствующий типу контекста. 

Модель длительности фонем индивидуализируется автоматически. 
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Модель интонирования 


Модель интонирования используется для вычисления интонационных контуров — 
последовательностей значений Е0 на протяжении текста. Модель основана на том, что 
главной интонационной единицей речи считается синтагма — часть фразы, имеющая 
выраженный интонационный контур. Синтагма состоит из одной или нескольких ак- 
центных групп. Акцентная группа (акцентная единица) — это одно или несколько слов, 
объединенных общим ударением. Разработанная модель интонирования близка к моде- 
ли интонационных портретов акцентных единиц, предложенной Б.М. Лобановым [9]. 

Параметрами интонационной модели являются: 

— коммуникативный тип синтагмы, определяемый в настоящее время по знаку пунк- 
туации и некоторым лексико-грамматическими показателям (вопросительные слова, 
союзы и т.д.); 

— количество акцентных групп в синтагме; 

— место ядерной (главной) акцентной группы в синтагме; 

— наборы целевых значений Е0 для каждой акцентной группы. 

В любой синтагме обязательно присутствует ядерная акцентная группа (АГ), не- 
сущая главное (синтагматическое) ударение. В общем случае, если в синтагме две АГ, 
то первая из них является начальной, а вторая — ядерной. Если акцентных групп три 
или больше, то первая из них является начальной, со второй по предпоследнюю вклю- 
чительно — предъядерной, последняя — ядерной. Наличие логического ударения в син- 
тагме может сделать ядерной любую АГ, в этом случае все АГ, следующие за ядерной, 
считаются заядерными. 

Каждый коммуникативный тип синтагмы имеет свой интонационный контур, 
состоящий из интонационных контуров входящих в нее АГ. Каждая АГ синтагмы сос- 
тоит из ядра — ударной гласной, предъядра — всех фонем АГ, находящихся перед ударной 
гласной, и заядра — всех фонем АГ, находящихся после ударной гласной. Главное 
предположение модели интонирования состоит в том, что топологические свойства 
просодических характеристик не изменяются (или изменяются незначительно) с из- 
менениями фонетического контекста и числа фонем в предъ- и заядре АГ [9]. 

Контур АГ задается последовательностью 10 значений ЕО. Контур синтагмы за- 
дается 10п значениями Е0, где п — количество АГ в синтагме. Интонационные контуры 
акцентных групп синтагмы «накладываются» на их фонемные транскрипции, каждое 
из 10 целевых значений ЕО приписывается соответствующим целевым точкам АГ. Пер- 
вые два из 10 целевых значений ЕО задают движение Е0 на предъядре АГ; значения 
ЕО с 3 по 8 задают изменение Е0 на ядре (ударной гласной); последние два значения 
ЕО описывают движение Е0 на заядре АГ. 

На первом этапе индивидуализации проводится классификация синтагм, произ- 
несенных диктором и хранящихся в РБД, по их коммуникативному типу (КТ). Мини- 
мальный набор учитываемых коммуникативных типов: завершенность («Знову залягла 
мертва тиша.»); завершенность с логическим ударением («Саме вона працюе.»); незавер- 
шенность («Алиса в1дчула,»); общий вопрос («Це мтсце в1льне?»); специальный вопрос 
(«Як твое самопочуття?»); восклицание («Який божев1льний день!»); перечисление 
(«Бажаю здоров’я, щастя, добра.»); противопоставление («Це не гра, а реальнсть.»). 
Модель позволяет увеличивать количество коммуникативных типов за счет детализа- 
ции коммуникативного смысла (например, собственно вопрос, переспрос и т.д.). 

Синтагмы выделяются в автоматизированном режиме с последующим аудитив- 
ным и визуальным контролем. Далее проводится классификация синтагм в рамках 
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одного КТ по количеству АГ и месту ядерной АГ. Каждый подтип имеет название, 
состоящее из трех частей: кода КТ, количества АГ и места ядерной АГ в синтагме, 
например, 7-3-2 (завершенный тип, три АГ в синтагме, вторая АГ является ядерной). 

На следующем этапе индивидуализации модели интонирования проводится стили- 
зация (упрощение) интонационных контуров синтагм с помощью программных средств 
обработки интонационной части аннотаций РБД. Стилизация осуществляется в соот- 
ветствии с описанной моделью интонирования: определяются значения Е0 в целевых 
точках акцентных групп синтагмы: для каждой АГ определяются два значения на предь- 
ядре, шесть значений на ядре и два значения на заядре. Результаты стилизации удобно 
представлять в виде таблиц и графиков, где на оси абсцисс отложены целевые точки 
АГ (А(1,1), А(1,2), ... А(п,9), А(п,10), где п — количество АГ в синтагме), а на оси ор- 
динат — целевые значения Е0 в Гц. Стилизация дает возможность сравнивать интона- 
ционные контуры синтагм различного сегментного (фонемного) состава, а также инто- 
национные контуры разных дикторов. На рис. 2 приведены стилизованные интонационные 
контуры синтагмы завершенного типа «Скоро всю землю розгородимо.» в произне- 
сении четырех дикторов. 

Особенности произношения проявляются в том, что дикторы по-разному интер- 
претируют одну и ту же фразу: РУСЛАН и АЛЕКСАНЛР произносят нейтрально (дви- 
жение Е0 восходящее — восходящее — нисходящее у АЛЕКСАНДРА и восходящее — 
ровное — нисходящее у РУСЛАНА), а СВЯТОСЛАВ и МАКСИМ выделяют слово 
«землю» (восходяще-нисходящее движение Е0 на второй АГ), придавая выразитель- 
ный, экспрессивный характер всей синтагме. Произношение РУСЛАНА отличается 
монотонностью. Интонационные различия произношения дикторов свидетельствуют 
о том, что информации о коммуникативной значимости отдельных частей синтагмы в 
тексте содержится недостаточно и она неоднозначна. 


230 
210 


—$— СВЯТОСЛАВ —-МАКСИМ —&—>РУСЛАН —Ж—=АЛЕКСАНДР 


Рисунок 2 — Стилизованные интонационные контуры синтагмы завершенного типа 
«Скоро всю землю розгородимо.» в произнесении четырех дикторов 


Выразительность речи связана не только с переносом ядерной АГ с конца син- 
тагмы. Как правило, выразительный характер синтагмы проявляется в более широком 
диапазоне Е0 всей синтагмы или ее отдельных АГ по сравнению с нейтральной речью. 
На рис. 3 приведены интонационные контуры нейтрально прочитанной диктором НА- 
ТАЛКОЙ синтагмы завершенного типа 7-3-3 «Без 1стотних опадйв» и выразительно 
прочитанной синтагмы аналогичного подтипа «Це моя сестра Гра» (слова «Це» и «моя» 
составляют одну АГ). В обоих случаях ядерной остается последняя АГ синтагмы. 
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Рисунок 3 — Интонационные контуры нейтральной и выразительной речи 
диктора НАТАЛКИ 


Рис. 4 свидетельствует о вариативности речи одного и того же диктора. Интона- 
ционные контуры одного подтипа в произнесении одного диктора различаются уровнем 
и диапазоном и направлением движения Е0 на начальной и предъядерной АГ, однако об- 
щим для всех приведенных контуров является восходящее движение ЕО на ядерной 
АГ, что и позволяет воспринимать интонацию синтагмы как незавершенную. 

После распределения всех синтагм РБД диктора по коммуникативным подти- 
пам, классификации синтагм в соответствии с нейтральным/выразительным стилем и 
стилизации интонационных контуров синтагм выводится интонационная модель дан- 
ного диктора. Это происходит либо путем усреднения значений Е0 в целевых точках 
синтагмы, либо в качестве модельного контура синтагмы эмпирическим путем выби- 
рается один из стилизованных контуров. 


ал ЗААсеОмМАя® оо к ААА о К АО © 
\Х АААО® 9х т 5 9% у 5\ о 
о к: 
Рисунок 4 — Стилизованные интонационные контуры синтагм подтипа 
незавершенности М-3-3 в произнесении диктора СВЯТОСЛАВА 


Множество модельных интонационных контуров диктора, репрезентирующих 
все коммуникативные подтипы и стили (нейтральный и выразительный), представ- 
ляет собой индивидуализированную модель интонации этого диктора. 

На рис. 5 приведены модельные интонационные контуры синтагмы нейтральной 
завершенности подтипа 7.-3-3 в произнесении двух дикторов. Приведенные контуры 
нормированы: ось ординат соответствует не абсолютным, а нормированным значе- 
ниям ЕО. Нормированное значение «0» соответствует 150 Гц для диктора НАТАЛКИ 
и 80 Гц для диктора ПАНАСА. Максимальное значение «10» соответствует 375 Гц 
для НАТАЛКИ и 180 Гц для ПАНАСА. Более широкий диапазон интонационного 
контура НАТАЛКИ свидетельствует о большей выразительности этого голоса. 
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Рисунок 5 — Модельные интонационные контуры завершенности 
подтипа 7-3-3 дикторов ПАНАСА и НАТАЛКИ 


В процессе синтеза речи индивидуализированные модели интонации использу- 
ются лингвистическим процессором для интонирования входного орфографического 
текста. Решение о том, контур какого коммуникативного подтипа выбирать для озву- 
чивания синтагмы в процессе синтеза речи, принимается с учетом знака пунктуации 
и количества акцентно-ударных гласных в синтагме после ее вычленения в тексте. 
По умолчанию ядерной считается последняя акцентная группа синтагмы. Однако поль- 
зователю системы синтеза речи предоставляется возможность при вводе текста обоз- 
начать логическое выделение особым знаком логического ударения. 


Результаты тестирования синтезированной речи 


Было проведено формальное тестирование образцов синтезированной речи с 
целью определить, какой из голосов, ПАНАС или НАТАЛКА, звучит естественнее. 
В частности, обоими голосами были озвучены отрывки из художественного, публицис- 
тического и научного текстов, а также тексты 33 5М$-сообщений. В тестировании 
методом средней оценки (МО$, теап ор1и1оп $соте) [10] участвовали сотрудники 
МНУЦИТИиС (5 человек), а также преподаватели и студенты специальности «Украин- 
ский язык и литература» (33 человека). Всем аудиторам предлагалось прослушать образ- 
цы синтезированной речи, предъявляемые в случайном порядке, и выставить каждому 
образцу оценку от 0 (очень плохо) до 5 (очень хорошо). Средние оценки естественнос- 
ти речи, синтезированной двумя голосами, приведены на рис. 6. 
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Рисунок 6 — Результаты тестирования естественности синтезированной речи 
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Обе группы аудиторов отдали незначительное предпочтение женскому голосу 
НАТАЛКА. Наименьшее различие (0,01 балла) наблюдается в оценке научного текста. 
Это может быть объяснено тем, что научный стиль не требует выразительного чтения, 
присущего НАТАЛКЕ, а строгость этого стиля в большей степени ассоциируется с 
мужским голосом. Незначительное различие (0,03 балла) в оценке художественного 
текста может быть объяснено тем, что желательная выразительность женского голоса 
нивелируется недостаточной степенью контроля над просодикой при выборе единиц 
конкатенации, в результате чего нарушается восприятие тонких смысловых связей, 
присущих художественным текстам. Предпочтение женского выразительного, хотя и 
более «неуравновешенного» голоса, мужскому нейтральному, хотя и более стабиль- 
ному, заметнее для публицистического текста (0,7 балла) и озвучивания ЗМ$-сообще- 
ний (0,4 балла). 


Выводы 


Синтезированная речь может считаться качественной, если она не только разбор- 
чива, но и звучит естественно. Естественность синтезированной речи связана с ее вы- 
разительностью и отображением индивидуальных особенностей произношения. 

Разработанная технология синтеза речи решает проблему индивидуализации и 
стиля чтения (нейтральный/выразительный) благодаря предварительному настраива- 
нию системы синтеза речи. 

Тестирование системы синтеза украинской речи независимыми экспертами дало 
положительные результаты. 
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Людовик Т.В. 

Автоматичний синтез нейтрального та виразного мовлення 

В 1нтелектуальних прикладних розробках, в яких використовуються мовленнев! технологий, синтезоване 
мовлення повинне звучати натурально та виразно. У статт! описуеться розроблена технологя синтезу 
мовлення, яка забезпечуе озвучення довльних орфографучних текств укра1нською мовою у нейтральному 
та виразному стилях. Основна увага придляеться просодичнйй модел! 1нтонування, яка використовуеться 
для синтезу мовлення з нейтральною та виразною 1нтонащею. 


Статья поступила в редакцию 22.01.2010. 
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